Scholar Hub/Chủ đề/#thị giác máy tính/
Thị giác máy tính là một lĩnh vực của trí tuệ nhân tạo và công nghệ máy tính liên quan đến việc phát triển các hệ thống và chương trình máy tính để giúp máy tín...
Thị giác máy tính là một lĩnh vực của trí tuệ nhân tạo và công nghệ máy tính liên quan đến việc phát triển các hệ thống và chương trình máy tính để giúp máy tính nhận diện và hiểu các hình ảnh và video tương tự như con người. Thị giác máy tính sử dụng các thuật toán và kỹ thuật như: xử lý ảnh, mạng neural nhân tạo, khai phá dữ liệu và học máy để phân tích và rút trích thông tin từ hình ảnh, nhận dạng đối tượng, phát hiện hình ảnh, theo dõi vật thể và các tác vụ khác liên quan đến thị giác. Ứng dụng của thị giác máy tính có thể thấy trong các lĩnh vực như xe tự hành, nhận dạng khuôn mặt, quét mã vạch, chẩn đoán y tế và công nghiệp sản xuất.
Thị giác máy tính sử dụng các phương pháp và công nghệ để xử lý, phân tích và nhận diện hình ảnh và video. Dưới đây là một số khái niệm chính trong lĩnh vực này:
1. Xử lý ảnh: Thị giác máy tính sử dụng các thuật toán để biến đổi và xử lý các hình ảnh kỹ thuật số. Các công cụ xử lý ảnh bao gồm lọc, biến đổi hình học, biến đổi màu sắc và phân đoạn ảnh.
2. Nhận dạng đối tượng: Một trong những nhiệm vụ quan trọng của thị giác máy tính là nhận dạng đối tượng trong hình ảnh. Các thuật toán và mô hình học máy được sử dụng để tìm kiếm và phân loại các đối tượng như người, xe hơi, động vật, vật thể, v.v.
3. Phát hiện hình ảnh: Thị giác máy tính có thể được sử dụng để phát hiện vị trí và tự động xác định các đối tượng trong hình ảnh. Các phương pháp như phát hiện ranh giới, phát hiện biên, phát hiện điểm đặc trưng và phát hiện các hình dạng có thể được áp dụng.
4. Theo dõi vật thể: Thị giác máy tính có thể theo dõi vật thể theo thời gian trong các video hoặc chuỗi hình ảnh. Các thuật toán theo dõi đối tượng sử dụng các thông tin về vị trí, hướng, đặc điểm và sự thay đổi của vật thể trong các khung hình liên tiếp.
5. Khai phá dữ liệu: Thị giác máy tính có thể khai thác thông tin từ tập dữ liệu hình ảnh và video để tạo ra kiến thức và hiểu biết. Các phương pháp khai phá dữ liệu bao gồm phân tích vùng, phân loại, nhận dạng mẫu và học máy.
Ứng dụng của thị giác máy tính rất đa dạng và có thể thấy trong nhiều lĩnh vực như giao thông vận tải (xe tự lái), kho bãi tự động, nhận dạng khuôn mặt, chẩn đoán y tế, kiểm tra chất lượng sản phẩm trong công nghiệp sản xuất, ứng dụng an ninh và quản lý, và nhiều lĩnh vực khác.
Phát hiện drone nhiều kích thước sử dụng mạng YOLOv5Ngày nay, máy bay không người lái được sử dụng rộng rãi với nhiều mục đích khác nhau. Với công nghệ ngày càng hiện đại, được trang bị nhiều chức năng cao cấp, linh hoạt với thiết kế nhỏ gọn mà giá thành lại không quá đắt. Drone được sử dụng trong nhiều lĩnh vực với nhiều mục đích khác nhau, đặc biệt là trong lĩnh vực quân sự, các thế lực thù địch sử dụng nó để thăm dò địa hình, mang vật liệu nổ trái phép, có thể đe dọa đến an ninh. Thị giác máy tính có thể được áp dụng để phát hiện một cách hiệu quả máy bay không người lái bất hợp pháp trong nhiều điều kiện khác nhau và các kích thước đa dạng của máy bay không người lái. Một hệ thống dựa trên máy tính sử dụng camera hiện đại kết hợp với một mô hình thuật toán có thể giải quyết tốt bài toán phức tạp trong phát hiện máy bay không người lái. Bài báo này đề xuất một phương pháp tiếp cận mạng nơ-ron phức tạp mới nổi đó là Yolov5. Với phương pháp này, chúng tôi đã được một kết quả hết sức mong đợi (0,993 cho @0,5IOU), đáp ứng được yêu cầu trong bài toán phát hiện đối tượng.
#Phát hiện máy bay không người lái; Thị giác máy tính; Yolov5; Mạng nơron phức tạp; IoU.
Phương pháp khử sương cho hình ảnh đơn dựa trên mô hình lặp số và DehazeNet Dịch bởi AI PLoS ONE - Tập 16 Số 7 - Trang e0254664
Là một trong những hiện tượng thời tiết bất lợi phổ biến nhất, hiện tượng sương mù đã gây ra tác động tiêu cực đến nhiều hệ thống thị giác máy tính. Để loại bỏ ảnh hưởng của sương, trong lĩnh vực xử lý ảnh, việc khử sương đã được nghiên cứu một cách chuyên sâu và nhiều thuật toán khử sương tiên tiến đã được đề xuất. Các phương pháp dựa trên mô hình vật lý và các phương pháp học sâu là hai phương pháp cạnh tranh cho việc khử sương trong ảnh đơn, nhưng vẫn là một vấn đề thách thức để đạt được sự trung thực và hiệu quả khử sương đồng thời trong các cảnh có sương thực tế. Trong công trình này, một mô hình lặp hỗn hợp được đề xuất, kết hợp phương pháp dựa trên mô hình vật lý với phương pháp dựa trên học máy để khôi phục các hình ảnh rõ nét chất lượng cao và có hiệu suất tốt trong việc duy trì các thuộc tính tự nhiên và hoàn toàn loại bỏ sương. Không giống như các nghiên cứu trước đây, chúng tôi đầu tiên chia nhỏ hình ảnh thành các vùng khác nhau theo mật độ sương để tính toán chính xác ánh sáng khí quyển phục vụ cho việc khôi phục các hình ảnh không có sương. Sau đó, kênh tối và DehazeNet được sử dụng để ước tính đồng thời truyền dẫn nhằm thúc đẩy hình ảnh rõ nét cuối cùng không có sương, gần giống hơn với cảnh thực tế. Cuối cùng, một chiến lược lặp số được áp dụng để tối ưu hóa thêm ánh sáng khí quyển và truyền dẫn. Các thí nghiệm rộng rãi đã chứng minh rằng phương pháp của chúng tôi vượt trội hơn các phương pháp tiên tiến hiện tại trên các tập dữ liệu tổng hợp và dữ liệu thực tế. Hơn nữa, để chỉ ra tính phổ quát của phương pháp đề xuất, chúng tôi còn áp dụng nó cho các tập dữ liệu viễn thám, điều này cũng tạo ra các kết quả thị giác thỏa mãn.
#khử sương #thị giác máy tính #xử lý ảnh #mô hình vật lý #học sâu #ánh sáng khí quyển #truyền dẫn #DehazeNet
Hệ thống theo dõi và báo động nhịp thở dựa trên thị giác máy tínhBreathing rate is one of the most important vital signals for monitoring health status and reflecting conditions of dangerous diseases. Previous contactless breath monitoring methods were more convenient than contact methods, but they were not suitable for the actual sleeping environment because of the narrow field of vision (FoV). This study proposed a breathing rate monitoring strategy using a mono camera to track and detect sleep apnea phenomena. Breathing rates were first tracked among consecutive image frames. The human body area was then isolated and magnified using a deep neural network (DNN) model before applying the optical flow algorithm to extract and monitor the up and down changes caused by respiration. The most variated directions of the body feature’s motions were detected based on the Principal Component Analysis (PCA) method. Breathing rate was the number of times the signal amplitude peaks per minute. The comparison between predicted values and manually estimated was used for evaluating the accuracy of the method. The accuracy of our method in various light, position, and distance conditions is 2 breaths/minute (<10%) for children and less than 1 breath/minute (<5%) for adults. The study has two main contributions: (1) monitoring breathing rate at home gives comfortable feelings to patients and caregivers, expanding the potential of applying modern technology to clinics, (2) the study has solved the problem of tracking small movements in videos with relatively large FoV in real-time. Perspectively, we will be employed the method in a home-based respiratory rate monitoring system.
#Computer vision-based #breathing rate detection #sleep apnea #optical flow #Principal component analysis
Ứng dụng mô hình học sâu thích ứng trong bài toán phát hiện phương tiện giao thôngPhân tích hình ảnh để phát hiện phương tiện giao thông là một bài toán trong lĩnh vực thị giác máy tính. Bài toán này có nhiều ứng dụng hữu ích trong các hệ thống xe tự hành, quản lý giao thông và đo lưu lượng xe tại các địa điểm, các tuyến đường quan trọng. Có nhiều cách tiếp cận để giải quyết bài toán này như biểu diễn đường viền, trích chọn đặc trưng, học máy, mạng học sâu. Trong bài báo này, tác giả đề xuất giải pháp sử dụng mô hình học thích ứng trên nền mạng học sâu để giải quyết bài toán. Để đánh giá hiệu quả của giải pháp, tác giả đã xây dựng hệ thống thử nghiệm dựa trên mạng học sâu YOLO3. Hệ thống được thử nghiệm trên bộ dữ liệu chuẩn và bộ dữ liệu tự thu thập. Kết quả cho thấy, hệ thống đạt được độ chính xác cao và khả thi khi áp dụng vào các ứng dụng thực tế.
#Phát hiện phương tiện giao thông #mạng học sâu #học thích ứng #thị giác máy tính
Ma trận cơ bản: Lý thuyết, thuật toán và phân tích độ ổn định Dịch bởi AI Springer Science and Business Media LLC - Tập 17 - Trang 43-75 - 1996
Trong bài báo này, chúng tôi phân tích chi tiết hình học của một cặp camera, tức là một thiết lập stereo. Trái ngược với những gì đã được thực hiện trong quá khứ và vẫn đang được sử dụng hiện nay, chẳng hạn như trong phân tích stereo hoặc chuyển động, chúng tôi không giả định rằng các tham số nội tại của các camera là đã biết (tọa độ của các điểm chính, tỷ lệ pixel và tiêu cự). Điều này quan trọng vì hai lý do. Thứ nhất, nó thực tế hơn trong các ứng dụng mà các tham số này có thể thay đổi tùy theo nhiệm vụ (thị giác chủ động). Thứ hai, trường hợp tổng quát mà chúng tôi xem xét ở đây, nắm bắt tất cả thông tin liên quan cần thiết để thiết lập sự tương ứng giữa hai cặp hình ảnh. Thông tin này về cơ bản là về chiếu và được ẩn giấu một cách gây nhầm lẫn trong định dạng thường được sử dụng của ma trận Essential được giới thiệu bởi Longuet-Higgins (1981). Bài báo này làm rõ bản chất về chiếu của vấn đề tương ứng trong stereo và cho thấy rằng hình học epipolar có thể được tóm tắt trong một ma trận 3×3 có hạng 2 mà chúng tôi đề xuất gọi là ma trận cơ bản. Sau phân tích lý thuyết này, chúng tôi bắt đầu nhiệm vụ ước lượng ma trận cơ bản từ các sự tương ứng điểm, một nhiệm vụ có tầm quan trọng thực tiễn. Chúng tôi phân tích lý thuyết và so sánh thực nghiệm sử dụng dữ liệu tổng hợp và thực tế, nhiều phương pháp ước lượng khác nhau. Vấn đề về độ ổn định của việc ước lượng được nghiên cứu từ hai góc độ bổ sung. Đầu tiên, chúng tôi chỉ ra rằng có một mối quan hệ thú vị giữa ma trận cơ bản và các mặt phẳng ba chiều gây ra các homography giữa các hình ảnh và tạo ra sự không ổn định trong các quy trình ước lượng. Thứ hai, chúng tôi chỉ ra một mối quan hệ sâu sắc giữa sự không ổn định của quy trình ước lượng và sự hiện diện trong cảnh các bề mặt gọi là bề mặt quan trọng đã được nghiên cứu trong bối cảnh phân tích chuyển động. Cuối cùng, chúng tôi kết luận bằng việc nhấn mạnh rằng chúng tôi tin rằng ma trận cơ bản sẽ đóng một vai trò quan trọng trong các ứng dụng tương lai của Thị giác máy tính ba chiều bằng cách tăng cường tính linh hoạt, độ ổn định và do đó khả năng áp dụng vào các vấn đề thực tế khó khăn.
#ma trận cơ bản #hình học stereo #ước lượng #thị giác máy tính ba chiều #ổn định
Quy hoạch quỹ đạo cho Robot di động dựa trên thị giác máy tínhBài báo giới thiệu thuật toán quy hoạch quỹ đạo cho robot di động hoạt động trong nhà dựa trên thị giác máy tính. Thuật toán được xây dựng nhằm giải quyết những vấn đề cơ bản mà robot gặp phải trong quá trình di chuyển bao gồm định hướng, định vị trí, tránh vật cản và các bài toán nhận dạng như nhận dạng điểm mốc, cửa và vật thể đích. Các thuật toán xử lý ảnh được hỗ trợ bằng các hàm từ thư viện OpenCV. Kết quả của thuật toán được áp dụng trên mô hình robot thực nghiệm điều khiển theo cơ chế client/server. Chương trình xử lý và điều khiển robot thực nghiệm được viết trên nền mã nguồn mở điều khiển robot thông dụng Player/Satge. Kết quả thực nghiệm cho thấy với thông tin từ camera, robot có thể di chuyển đến vật thể đích khi biết trước vị trí của vật thể đích và các cột mốc quan trọng trên đường di chuyển.
#OpenCV #Player/Stage #robot di động #thị giác máy tính #quy hoạch quỹ đạo
Độ chính xác nhận dạng trong mô hình Faster R-CNN khi có nhiễuThuật toán Faster R-CNN được đánh giá là mô hình nhận dạng khá tốt về độ chính xác và tốc độ phát hiện. Đã có nhiều nghiên cứu đánh giá về độ chính xác mô hình này với các mô hình khác. Tuy nhiên, các kết quả đó được thực hiện với ảnh đưa vào nhận dạng không bị nhiễu. Nghiên cứu này để đánh giá về độ chính xác của mô hình ở trạng thái bình thường và nhiễu. Để thực hiện việc này, tác giả đã huấn luyện cho mô hình nhận dạng 10 loài hoa và sau đó cho nhận dạng với 4 trạng thái khác nhau: Ảnh có ánh sáng tốt; ảnh bị che khuất 1/3; 1/2; ảnh thiếu ánh sáng; phân tích phương sai ANOVA (Analysis of variance) và trắc nghiệm sự khác biệt nhỏ nhất LSD (Least Significant Difference) bằng phần mềm SPSS 20.0 để đánh giá độ chính xác trong 4 trạng thái. Kết quả cho thấy, sự khác biệt về độ chính xác trong 4 trạng thái rất có ý nghĩa về mặt thống kê; độ chính xác đạt 99,28%, 78,46%, 40,36% và 62,38% tương ứng với 4 trạng thái ở trên.
#deep learning #Trí tuệ nhân tạo #thị giác máy tính #nhận dạng đối tượng #xử lý ảnh
PHƯƠNG PHÁP ƯỚC LƯỢNG GÓC NHÌN DỰA TRÊN ĐIỂM 3D ĐẶC TRƯNG KHUÔN MẶT VÀ ỨNG DỤNG GIÁM SÁT THI TRỰC TUYẾN Ước lượng góc nhìn khuôn mặt (HPE) là một bài toán phức tạp đòi hỏi sự kết hợp giữa xử lý hình ảnh, thị giác máy tính và kỹ thuật học máy với các phương pháp hiện nay dựa trên mạng nơron tích chập (CNN) để xác định ánh xạ giữa không gian ảnh 2D và mô hình 3D khuôn mặt và xác định các góc nhìn. HPE được ứng dụng trong nhiều vấn đề thực tiễn và có ý nghĩa cao như các giám sát an ninh, phát hiện sự tập trung của lái xe, giám sát người học và thi trực tuyến,... Nghiên cứu này sử dụng mô hình CNN hiện đại để phát hiện các điểm đặc trưng khuôn mặt và đề xuất một phương pháp ước lượng góc nhìn khuôn mặt sử dụng thuật toán rừng ngẫu nhiên dựa trên các điểm đặc trưng 3D của khuôn mặt từ ảnh 2D để xác định góc nhìn của khuôn mặt trên ảnh đó. Kết quả thử nghiệm của phương pháp đề xuất trên bốn tập dữ liệu phổ biến đạt chất lượng tốt, cho sai số thấp nhất ở hai trong số 4 tập dữ khi so sánh các phương pháp. Chúng tôi đưa ra một thiết kế tích hợp giữa phương pháp đề xuất với hệ thống quản lý học tập trực tuyến nhằm hỗ trợ giám sát và đánh giá sự tập trung tham gia học tập và làm bài thi của người học.
#Giám sát thi trực tuyến #thị giác máy tính #mạng nơron tích chập #hồi quy rừng ngẫu nhiên
Chữ ký dựa trên mạng nơ-ron ngẫu nhiên cho phân loại kết cấu màu Dịch bởi AI Multidimensional Systems and Signal Processing - Tập 30 - Trang 1171-1186 - 2018
Phân tích kết cấu màu là một chủ đề quan trọng trong nghiên cứu thị giác máy tính. Bài báo này giới thiệu một phương pháp phân tích kết cấu màu sáng tạo và mạnh mẽ dựa trên mạng nơ-ron ngẫu nhiên. Cách tiếp cận này sử dụng trọng số của mạng nơ-ron như các thuộc tính cho một vector đặc trưng màu sắc. Các thí nghiệm đã được thực hiện trên ba bộ dữ liệu chuẩn nổi tiếng (Vistex, USPtex và Outex) và hai phiên bản xoay của các bộ dữ liệu này (Vistex và Outex). Kết quả thu được hứa hẹn, vượt qua độ chính xác của hầu hết các phương pháp so sánh. Thành công này cho phép chúng tôi khẳng định rằng cách tiếp cận được đề xuất là một công cụ quý giá để được đưa vào lĩnh vực phân tích kết cấu màu.
#Phân tích kết cấu màu #mạng nơ-ron #phân loại màu sắc #học máy #thị giác máy tính.
Phát hiện gian lận trong quá trình kiểm tra đánh giá trên nền tảng NTU E-learning tại Trường Đại học Nha Trang sử dụng thị giác máy tínhPhát hiện và chống gian lận trong kiểm tra đánh giá là công việc quan trọng trong các cơ sở giáo dục và trên các hệ thống trực tuyến. Trên nền tảng Moodle hoặc bất cứ nền tảng E-learning khác, thách thức để đảm bảo tính trung thực của sinh viên càng trở nên phức tạp. Việc gian lận khi mở một thẻ khác hoặc cửa sổ khác trong quá trình làm bài kiểm tra đánh giá trên E-learning cần phải được phát hiện. Trong nghiên cứu này, nhóm tác giả sẽ xây dựng một tập dữ liệu gồm các ảnh chụp màn hình thi trong trường hợp bình thường và có gian lận. Nhóm tác giả đề xuất một chiến lược phát hiện gian lận dựa vào thị giác máy tính, cụ thể là YOLOv8. Mục tiêu của chiến lược phát hiện gian lận là nhận biết các hành vi mở một thẻ hoặc cửa sổ khác trong quá trình kiểm tra đánh giá trên nền tảng Moodle. Điều này sẽ giúp đảm bảo công bằng, giảm thời gian và công sức của giám thị coi thi. Kết quả nghiên cứu đã chứng minh được khả năng phát hiện chính xác và tính khả thi.
#Gian lận #yolov8 #phát hiện đối tượng #Deep learning #Convolutional neural networks